Although existing multi-object tracking (MOT) algorithms have obtained competitive performance on various benchmarks, almost all of them train and validate models on the same domain. The domain generalization problem of MOT is hardly studied. To bridge this gap, we first draw the observation that the high-level information contained in natural language is domain invariant to different tracking domains. Based on this observation, we propose to introduce natural language representation into visual MOT models for boosting the domain generalization ability. However, it is infeasible to label every tracking target with a textual description. To tackle this problem, we design two modules, namely visual context prompting (VCP) and visual-language mixing (VLM). Specifically, VCP generates visual prompts based on the input frames. VLM joints the information in the generated visual prompts and the textual prompts from a pre-defined Trackbook to obtain instance-level pseudo textual description, which is domain invariant to different tracking scenes. Through training models on MOT17 and validating them on MOT20, we observe that the pseudo textual descriptions generated by our proposed modules improve the generalization performance of query-based trackers by large margins.
translated by 谷歌翻译
基于全注意力的变压器体系结构的强大建模能力通常会导致过度拟合,并且 - 对于自然语言处理任务,导致自动回归变压器解码器中隐式学习的内部语言模型,使外部语言模型的集成变得复杂。在本文中,我们探索了放松的注意力,对注意力的重量进行了简单易于实现的平滑平滑,从编码器。其次,我们表明它自然支持外部语言模型的整合,因为它通过放松解码器中的交叉注意来抑制隐式学习的内部语言模型。我们证明了在几项任务中放松注意力的好处,并与最近的基准方法相结合,并明显改善。具体而言,我们超过了最大的最大公共唇部阅读LRS3基准的26.90%单词错误率的先前最新性能,单词错误率为26.31%,并且我们达到了最佳表现的BLEU分数37.67在IWSLT14(de $ \ rightarrow $ en)的机器翻译任务没有外部语言模型,几乎没有其他模型参数。代码和模型将公开可用。
translated by 谷歌翻译
基于点云的3D单一对象跟踪(3DSOT)吸引了越来越多的注意力。已经取得了许多突破,但我们也揭示了两个严重的问题。通过广泛的分析,我们发现当前方法的预测方式是非持bust的,即暴露了预测得分和实际定位精度之间的错位差距。另一个问题是稀疏点返回将损坏SOT任务的功能匹配过程。基于这些见解,我们介绍了两个新型模块,即自适应改进预测(ARP)和目标知识转移(TKT),以解决它们。为此,我们首先设计了强大的管道来提取区分特征,并使用注意机制进行匹配程序。然后,建议通过汇总所有具有宝贵线索的预测候选人来解决未对准问题。最后,由于稀疏和遮挡问题,TKT模块旨在有效克服不完整的点云。我们称我们的整体框架PCET。通过在Kitti和Waymo Open数据集上进行广泛的实验,我们的模型可以实现最新的性能,同时保持较低的计算消耗。
translated by 谷歌翻译
由于3D对象检测和2D MOT的快速发展,3D多对象跟踪(MOT)已取得了巨大的成就。最近的高级工作通常采用一系列对象属性,例如位置,大小,速度和外观,以提供3D MOT的关联线索。但是,由于某些视觉噪音,例如遮挡和模糊,这些提示可能无法可靠,从而导致跟踪性能瓶颈。为了揭示困境,我们进行了广泛的经验分析,以揭示每个线索的关键瓶颈及其彼此之间的相关性。分析结果激发了我们有效地吸收所有线索之间的优点,并适应性地产生最佳的应对方式。具体而言,我们提出位置和速度质量学习,该学习有效地指导网络估计预测对象属性的质量。基于这些质量估计,我们提出了一种质量意识的对象关联(QOA)策略,以利用质量得分作为实现强大关联的重要参考因素。尽管具有简单性,但广泛的实验表明,提出的策略可显着提高2.2%的AMOTA跟踪性能,而我们的方法的表现优于所有现有的最先进的Nuscenes上的最新作品。此外,Qtrack在Nuscenes验证和测试集上实现了48.0%和51.1%的AMOTA跟踪性能,这大大降低了纯摄像头和基于LIDAR的跟踪器之间的性能差距。
translated by 谷歌翻译
深度估计是某些领域的关键技术之一,例如自动驾驶和机器人导航。但是,使用单个传感器的传统方法不可避免地受到传感器的性能的限制。因此,提出了一种融合激光镜头和立体声摄像机的精度和健壮方法。该方法完全结合了LiDAR和立体声摄像机的优势,这些摄像头可以保留LIDAR高精度和图像的高分辨率的优势。与传统的立体声匹配方法相比,对象和照明条件的质地对算法的影响较小。首先,将LIDAR数据的深度转换为立体声摄像机的差异。由于LiDAR数据的密度在Y轴上相对稀疏,因此使用插值方法对转换的差异图进行了更采样。其次,为了充分利用精确的差异图,融合了差异图和立体声匹配以传播准确的差异。最后,将视差图转换为深度图。此外,转换后的差异图还可以提高算法的速度。我们在Kitti基准测试中评估了拟议的管道。该实验表明,我们的算法比几种经典方法具有更高的精度。
translated by 谷歌翻译
聚类是一种代表性的无监督方法,广泛应用于多模式和多视图方案。多个内核聚类(MKC)旨在通过集成基础内核的互补信息来分组数据。作为代表,后期的Fusion MKC首先将内核分解为正交分区矩阵,然后从他们那里学习共识,最近实现了有希望的表现。但是,这些方法无法考虑分区矩阵内部的噪声,从而阻止了聚类性能的进一步改善。我们发现噪声可以分解为可分离的双部分,即n-noise和c-noise(空空间噪声和柱空间噪声)。在本文中,我们严格地定义了双噪声,并通过最小化新颖的无参数MKC算法提出了新颖的MKC算法。为了解决最终的优化问题,我们设计了有效的两步迭代策略。据我们所知,这是第一次研究内核空间中分区中的双重噪声。我们观察到双重噪声会污染对角线结构并产生聚类性能的变性,而C-Noise比N-Noise表现出更大的破坏。由于我们的有效机制可以最大程度地减少双重噪声,因此所提出的算法超过了最新的方法。
translated by 谷歌翻译
多个内核聚类(MKC)致力于从一组基础内核中实现最佳信息融合。事实证明,构建精确和局部核矩阵在应用中具有至关重要的意义,因为不可靠的远距离相似性估计将降低群集的每种形式。尽管与全球设计的竞争者相比,现有的局部MKC算法表现出改善的性能,但其中大多数通过考虑{\ tau} - 最终的邻居来定位内核矩阵来定位内核矩阵。但是,这种粗糙的方式遵循了一种不合理的策略,即不同邻居的排名重要性是相等的,这在应用程序中是不切实际的。为了减轻此类问题,本文提出了一种新型的本地样品加权多核聚类(LSWMKC)模型。我们首先在内核空间中构建共识判别亲和力图,从而揭示潜在的局部结构。此外,学习亲和力图的最佳邻域内核具有自然稀疏特性和清晰的块对角结构。此外,LSWMKC立即优化了具有相应样品的不同邻居的适应性权重。实验结果表明,我们的LSWMKC具有更好的局部流形表示,并且优于现有内核或基于图的聚类算法算法。可以从https://github.com/liliangnudt/lswmkc公开访问LSWMKC的源代码。
translated by 谷歌翻译
虽然微调预训练的网络已成为训练图像分割模型的流行方式,但这种用于图像分割的骨干网络经常使用图像分类源数据集(例如ImageNet)进行预训练。尽管图像分类数据集可以为骨干网络提供丰富的视觉特征和歧视能力,但它们无法以端到端的方式完全预训练目标模型(即骨干+分割模块)。由于分类数据集中缺乏分割标签,因此在微调过程中进行分割模块在微调过程中随机初始化。在我们的工作中,我们提出了一种利用伪语义分割标签(PSSL)的方法,以启用基于分类数据集的图像分割模型的端到端预训练。 PSSL的启发是受到观察的启发,即通过CAM,Smoothgrad和Lime等解释算法获得的分类模型的解释结果将接近视觉对象的像素簇。具体而言,通过解释分类结果并汇总了从多个分类器查询的解释集合来降低单个模型引起的偏差,从而为每个图像获得PSSL。使用PSSL,对于ImageNet的每个图像,提出的方法都利用加权分割学习程序来预先培训分割网络。实验结果表明,在Imagenet伴随PSSL作为源数据集的情况下,提出的端到端预训练策略成功地增强了各种分割模型的性能,即PSPNET-RESNET50,DEEPLABV3-RESNET50和OCRNET-HRNET-HRNETENET-HRNETENET-HRNETENET-HRNETENET-HRNETW18,和在许多细分任务上,例如CAMVID,VOC-A,VOC-C,ADE20K和CityScapes,并有重大改进。源代码可在https://github.com/paddlepaddle/paddleseg上使用。
translated by 谷歌翻译
单眼3D对象检测(M3OD)的标签昂贵。同时,在实际应用中通常存在许多未标记的数据,并且预培训是利用未标记数据中知识的有效方法。但是,几乎没有研究M3OD的预训练范例。我们的目标是在这项工作中弥合这一差距。为此,我们首先绘制两个观察结果:(1)设计预训练任务的指南是模仿目标任务的表示。 (2)将深度估计和2D对象检测组合是一个有希望的M3OD预训练基线。之后,遵循指南,我们提出了几种策略来进一步改善该基线,其中主要包括目标指导的半密度深度估计,关键点了解2D对象检测和类级损失调整。结合了所有开发的技术,获得的预训练框架会产生预训练的骨架,从而在Kitti-3D和Nuscenes基准测试中都显着改善M3OD性能。例如,通过将DLA34骨架应用于基于天真的中心的M3OD检测器,中等$ {\ rm ap} _ {3D} 70 $在Kitti-3D测试集上的汽车得分将增强18.71 \%\%\%和NDS Nuscenes验证集的得分相对较高40.41 \%。
translated by 谷歌翻译
自主的改进提供了许多域中积极成果的潜力,但保证了他们的安全部署是困难的。这项工作调查了人们如何智能地监督代理商,即使在表现担保是难以捉摸的情况下,即使性能保证也是如此达到一些安全性。激励研究问题是:在安全关键环境中,我们可以避免有必要始终有一台机器吗?本文正式化了这一“缩放监督”问题,并调查其在融入交通的自治车辆(AVS)的安全关键背景下。它提出了一种保守的,可达性的方法,以减少AVS人类主管的负担,这允许在此环境中建立高信任上限。通过深度加强学习学习序列和流量模拟分析,在数字上,AVS的组合可以在AV采用中进行监督时间。一个关键的外卖是,尽管存在AVS的不完美,但由于AVS部署了EN Masse,监督变得更具易行。虽然这项工作侧重于AVS,但可扩展的监督框架与更广泛的自主控制挑战阵列相关。
translated by 谷歌翻译